用了5年的Git,你竟然还不晓得它的实现原理!
点击上方蓝色“后端面试那些事儿”,选择“设为星标”
学最好的别人,做最好的自己
fast,scalable,distributed revision control system(快速,可扩展的分布式版本控制系统)
几乎所有操作都是本地执行
每一个clone都是整个生命周期的完整副本
the stupid content tracker(只是一个内容追踪器)
Git追踪的是内容而不是文件
如果两个文件的内容相同,无论是否在相同的目录,Git在对象库里只保存一份blob对象
Immutable(不可变性)
Git版本库中存储的数据对象均为不可变的,一旦创建数据对象并放入了数据库中,它们便不可修改。这也意味着存储在版本数据库中的整个历史也是不可变的。
Porcelain(高层命令)
init, add, commit, branch, merge.
Plumbing(底层命令)
hash-object, update-index, write-tree.
Git基本概念:
Content addressable filesystem(内容寻址文件系统)
Simple key-value data store(键值对数据)
Key:SHA-1散列(hash,哈希)
Everything is hash
这是一个由40个十六进制字符(0-9和a-f)组成字符串
Value:binary files
Commit:Actual git commits(提交)
Tree:Directoy(目录树)
Blob:file content(文件内容)
note:可以理解成Commit = Tree + Blob的snapshot
什么是SHA-1:SHA-1(安全散列函数),是一种密码散列函数,美国国家安全局设计,并由美国国家标准技术研究所发布为联邦数据处理标准。SHA-1可以生成一个被称为消息摘要的160位(20字节)散列值,散列值通常的呈现形式为40个十六进制数。用js来理解就是一个纯函数,输入一定输出也一定,相同的输入一定有相同的输出。不相同的输入一定有不同的输出(不考虑碰撞 ,比彗星撞击地球的概率还低)。
在工作目录中修改文件。
暂存文件,将文件的快照放入暂存区域。
提交更新,找到暂存区域的文件,将快照永久性存储到Git仓库目录。
对应高层命令是这样的:
$ git init
$ git add .
$ git commit
Working Directory:工作区(工作目录)
Stageing Area (Index):暂存区
Repository:仓库区(本地仓库)
$ git init demo1 && cd demo1
$ tree .git
.git
├── HEAD
├── config
├── description
├── hooks
│ ├── applypatch-msg.sample
│ ├── commit-msg.sample
│ ├── fsmonitor-watchman.sample
│ ├── post-update.sample
│ ├── pre-applypatch.sample
│ ├── pre-commit.sample
│ ├── pre-push.sample
│ ├── pre-rebase.sample
│ ├── pre-receive.sample
│ ├── prepare-commit-msg.sample
│ └── update.sample
├── info
│ └── exclude
├── objects
│ ├── info
│ └── pack
└── refs
├── heads
└── tags
下面我们就用底层命令来实现git init指令(另创建一个demo2目录)。
mkdir -p参数是能直接创建一个不存在的目录下的子目录:
$ mkdir -p .git/refs/heads .git/refs/tags .git/objects
$ echo 'ref: refs/heads/master' > .git/HEAD
可以看到已经成功初始化了一个Git项目。
$ echo 'hello git' > index.txt
$ git add index.txt
执行完这两句指令后我们再来看.git文件夹发生了什么变化(为了显示效果,简化目录结构,之后tree 都忽略hooks文件夹)
.git
├── HEAD
├── config
├── description
├── index
├── info
│ └── exclude
├── objects
│ ├── 8d
│ │ └── 0e41234f24b6da002d962a26c2495ea16a425f
│ ├── info
│ └── pack
└── refs
├── heads
└── tags
$ echo 'hello git' | git hash-object --stdin
$ 8d0e41234f24b6da002d962a26c2495ea16a425f
可以通过cat-file命令从Git那里取回数据。为cat-file指定-p选项可指示该命令自动判断内容的类型,并为我们显示格式友好的内容:
$ git cat-file -p 8d0e
$ hello git
为cat-file指定-t选项可以查看文件的类型:
$ git cat-file -t 8d0e
$ blob
git add做了两件事情:
文件内容做一个hash存成blob object
把index放入到Staging Area
当为index.txt创建一个对象的时候,git并不关心index.txt的文件名,git 只关心文件里面的内容。
按照这个思路,我们用底层命令来实现一下git add指令。
$ echo 'hello git' | git hash-object -w --stdin
$ git update-index --add --cacheinfo 100644 8d0e41234f24b6da002d962a26c2495ea16a425f index.txt
$ git ls-files --s
$ 100644 8d0e41234f24b6da002d962a26c2495ea16a425f 0 index.txt
.git
├── COMMIT_EDITMSG
├── HEAD
├── config
├── description
├── index
├── info
│ └── exclude
├── logs
│ ├── HEAD
│ └── refs
│ └── heads
│ └── master
├── objects
│ ├── 75
│ │ └── 0d7c0f7f998d3e2ce2d71ec801902f69bf6a39
│ ├── 88
│ │ └── bc066ebf3d864e34297f7051a0ded16e49813a
│ ├── 8d
│ │ └── 0e41234f24b6da002d962a26c2495ea16a425f
│ ├── info
│ └── pack
└── refs
├── heads
│ └── master
└── tags
$ git log
$ commit 750d7c0f7f998d3e2ce2d71ec801902f69bf6a39 (HEAD -> master)
查看这个commit 的文件类型,可以看到这是一个commit:
$ git cat-file -t 750d
$ commit
$ git cat-file -p 750d
$ tree 88bc066ebf3d864e34297f7051a0ded16e49813a
$ git cat-file -t 88bc
$ tree
$ git cat-file -p 88bc
$ 100644 blob 8d0e41234f24b6da002d962a26c2495ea16a425f index.txt
$ cat .git/HEAD
$ ref: refs/heads/master
继续查看refs/heads/master:
$ cat .git/refs/heads/master
$ 750d7c0f7f998d3e2ce2d71ec801902f69bf6a39
再来回顾下一次完整的提交流程:
往期推荐
点击“阅读原文”,领取 2021 年最新免费技术资料大全
↓↓↓